OpenAI Araştırması Sohbet Robotu Değerlendirme Yöntemlerindeki Kusurları Ortaya Çıkarıyor

Author:

Published:

2025-09-08 16:57:56

BTCCSquare haberleri:

OpenAI ve Georgia Tech araştırmacıları, yapay zeka sohbet robotlarının değerlendirilme şeklindeki sistematik kusurları tespit etti ve mevcut test yöntemlerinin yanlış yanıtları istemeden teşvik ettiğini ortaya koydu. Çalışma, ChatGPT ve DeepSeek-V3 gibi modellerin, cehalet itiraflarını cezalandıran ikili puanlama sistemleri nedeniyle dürüst belirsizlik yerine kendinden emin tahminlere öncelik verdiğini gösteriyor.

Halüsinasyonlar öngörülebilir matematiksel kalıplar izliyor ve nadiren görülen eğitim verileri tutarlı hatalara neden oluyor. Kontrollü testlerde, en iyi modeller bile bilgi boşluklarını kabul etmek yerine tekrar tekrar yanlış biyografik detaylar sağladı. Araştırma, doğruluğu ödüllendiren, hataları cezalandıran ve şeffaf "bilmiyorum" yanıtları için tarafsızlığı koruyan revize edilmiş bir puanlama sistemi öneriyor.

İlk denemeler, bu yaklaşımı kullanan modellerin stratejik ihmal yoluyla daha yüksek genel doğruluk elde ettiğini gösteriyor. Bulgular, AI kıyaslaması hakkındaki temel varsayımlara meydan okuyarak, güvenilirliğin yalnızca model mimarisinden ziyade değerlendirme çerçevelerine daha fazla bağlı olabileceğini öne sürüyor.

Sağlayan:

Opsiyon Volatilitesi 8 Eylül 2025 için Kritik Kazanç Hareketlerini İşaret Ediyor

|Square

BTCC uygulamasını indirip kripto yolculuğunuza başlayın

Download on the App Store GEI IT ON Google Play

Hemen bugün başlayın 100M+ kullanıcımıza katılmak için tarayın

Önerilen

Promosyonlar

OpenAI Araştırması Sohbet Robotu Değerlendirme Yöntemlerindeki Kusurları Ortaya Çıkarıyor

|Square